Recent work has shown that fine-tuning large pre-trained language models on a collection of tasks described via instructions, a.k.a. instruction-tuning, improves their zero and few-shot generalization to unseen tasks. However, there is a limited understanding of the performance trade-offs of different decisions made during the instruction-tuning process. These decisions include the scale and diversity of the instruction-tuning benchmark, different task sampling strategies, fine-tuning with and without demonstrations, training using specialized datasets for reasoning and dialogue, and finally, the fine-tuning objectives themselves. In this paper, we characterize the effect of instruction-tuning decisions on downstream task performance when scaling both model and benchmark sizes. To this end, we create OPT-IML Bench: a large benchmark for Instruction Meta-Learning (IML) of 2000 NLP tasks consolidated into task categories from 8 existing benchmarks, and prepare an evaluation framework to measure three types of model generalizations: to tasks from fully held-out categories, to held-out tasks from seen categories, and to held-out instances from seen tasks. Through the lens of this framework, we first present insights about instruction-tuning decisions as applied to OPT-30B and further exploit these insights to train OPT-IML 30B and 175B, which are instruction-tuned versions of OPT. OPT-IML demonstrates all three generalization abilities at both scales on four different evaluation benchmarks with diverse tasks and input formats -- PromptSource, FLAN, Super-NaturalInstructions, and UnifiedSKG. Not only does it significantly outperform OPT on all benchmarks but is also highly competitive with existing models fine-tuned on each specific benchmark. We release OPT-IML at both scales, together with the OPT-IML Bench evaluation framework.
translated by 谷歌翻译
This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.
translated by 谷歌翻译
我们介绍了一项对自然语言(NL)推理的人类通知,开放域和逻辑上复杂且多样的数据集,配备了一阶逻辑(fol)注释。对开本由1,435个示例(独特的结论)组成,每个示例与487组前提之一搭配,这些场所作为规则,可用于演绎理由,以理解每个结论的有效性。前提和结论的逻辑正确性是通过其平行注释来确保的,这些注释会自动由我们的FOL推理引擎验证。除了主要的NL推理任务外,对开本中的NL-FOL对自动构成了使用FOL作为逻辑形式的新的NL-FOL翻译数据集。我们对广泛的实验系统地评估了对中型语言模型(BERT,ROBERTA)进行微调的FOL推理能力,并且在大型语言模型(GPT-NEOX,OPT,OPT,GPT-3,Codex)上促成了很少的射击。对于NL-FOL翻译,我们尝试使用GPT-3和Codex。我们的结果表明,公开可用的最强大的大语言模型之一(LLM),GPT-3 Davinci,仅比随机结果略好,而在一部分集的一部分中,该模型尤其不好,并且在预测该模型方面尤其不好。纠正虚假和未知结论的真实价值。我们的数据集和代码可在https://github.com/yale-lily/folio上找到。
translated by 谷歌翻译
用于流量操作和控制的现有数据收集方法通常依赖于基于基础架构的环路探测器或探测器车辆轨迹。连接和自动化的车辆(CAVS)不仅可以报告有关自己的数据,而且可以提供所有检测到的周围车辆的状态。从多个CAVS以及基础设施传感器(例如Lidar)的感知数据集成,即使在非常低的渗透率下也可以提供更丰富的信息。本文旨在开发合作数据收集系统,该系统集成了来自基础架构和CAVS的LiDar Point Cloud数据,以为各种运输应用创建合作感知环境。最新的3D检测模型用于在合并点云中检测车辆。我们在与Carla和Sumo的共模拟平台中测试了具有最大压力自适应信号控制模型的提出的合作感知环境。结果表明,CAV和基础设施传感器的渗透率非常低,足以实现可比性的性能,而连接车辆(CV)的渗透率为30%或更高。我们还显示了不同CAV渗透率下的等效CV渗透率(E-CVPR),以证明合作感知环境的数据收集效率。
translated by 谷歌翻译
ControlBurn是一个python软件包,可构建支持非线性特征选择和可解释的机器学习的特征 - 帕尔斯树合奏。该软件包中的算法首先构建了大型树的合奏,该算法优先考虑具有很少功能的基础函数,然后使用加权LASSO优化标准选择这些基础功能的功能 - SPARSE子集。该软件包包括可视化,以分析合奏选择的功能及其对预测的影响。因此,ControlBurn提供了树模型模型的准确性和灵活性以及稀疏的广义添加剂模型的解释性。 ControlBurn是可扩展和灵活的:例如,它可以使用温暖启动延续来计算具有数万个样本和数百个功能的数据集的正则化路径(任何数量选定功能的预测误差)。对于较大的数据集,运行时间在样本和功能的数量(最多到日志系数)中线性缩放,以及使用草图的包装支持加速。此外,ControlBurn框架可容纳功能成本,功能分组和$ \ ell_0 $的正规机构。该软件包是用户友好且开源的:其文档和源代码显示在https://pypi.org/project/controlburn/和https://github.com/udellgroup/controlburn/。
translated by 谷歌翻译
近似消息传递(AMP)类型算法已被广泛用于某些大型随机线性系统的信号重建。AMP型算法的关键特征是可以通过状态进化正确描述其动力学。但是,状态进化不一定保证迭代算法的收敛性。为了解决原则上AMP类型算法的收敛问题,本文提出了在足够的统计条件下的记忆AMP(MAMP),称为足够的统计MAMP(SS-MAMP)。我们表明,SS-MAMP的协方差矩阵是L带和收敛的。给定任意启动,我们可以通过阻尼来构建SS-MAMP,这不仅可以确保收敛性,而且可以保留正交性,即可以通过状态进化正确描述其动力学。
translated by 谷歌翻译
使用摄像机和计算算法的生理学(例如心脏和肺)生理学的非侵入性,低成本和可扩展性测量的生命体征非常有吸引力。但是,代表各种环境,身体运动,照明条件和生理状态的各种数据是费力的,耗时且昂贵的。合成数据已被证明是机器学习的几个领域的有价值工具,但并未广泛用于摄像机测量生理状态。合成数据提供“完美”标签(例如,没有噪声且具有精确的同步),可能无法获得其他标签(例如,精确的像素级分段图),并提供了对数据集中变化和多样性的高度控制。我们提供Scamps,这是一个合成学数据集,其中包含2,800个视频(168万帧),并带有对齐的心脏和呼吸信号以及面部动作强度。 RGB框架与分割图一起提供。我们提供有关潜在波形的精确描述性统计数据,包括beat间间隔,心率变异性和脉搏到达时间。最后,我们介绍了这些合成数据和对现实世界数据集测试的基线结果培训,以说明可推广性。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
近似消息传递(AMP)是一种希望具有非高斯信令的某些高维线性系统的未知信号重建的有希望的技术。 AMP型算法的杰出特征是它们的动态可以通过状态演进来严格描述。但是,状态的进化不一定保证迭代算法的融合。为了解决AMP型算法的收敛问题原则上,本文提出了一种在足够的统计条件下的存储放大器(MAMP),命名为足够的统计MAMP(SS-MAMP)。我们表明SS-MAMP的协方差矩阵是L-带状和会聚。考虑到任意的MAMP,我们可以通过阻尼构造SS-MAMP,这不仅可以确保MAMP的收敛,而且还可以保留MAMP的正交性,即,其动态可以通过状态演变严格地描述。作为副产品,我们证明贝叶斯最佳正交/载体放大器(Bo-Oamp / Vamp)是SS-MAMP。结果,我们揭示了大型系统的Bo-Oamp /鞋面的两个有趣特性:1)协方差矩阵是L型带状的,并且在BO-Oamp / vamp中收敛,2)阻尼和存储器无用(即,做在BO-OAMP / VAMP中没有带来性能改进。作为一个例子,我们构建了一个足够的统计贝叶斯 - 最佳MAMP(BO-MAMP),如果其状态进化具有独特的固定点,并且其MSE比原来的BO-MAMP更糟糕,那么它是最佳的。最后,提供了模拟以验证理论结果的有效性和准确性。
translated by 谷歌翻译
分布式深度学习(DDL)对于大型深度学习(DL)培训至关重要。同步随机梯度下降(SSGD)1是事实上的DDL优化方法。使用足够大的批量大小对于实现DDL运行时加速至关重要。在大量批量设置中,必须增加学习速率以补偿减少的参数更新数量。然而,大型学习率可能会损害SSGD和培训可以很容易地分歧。最近,已经提出了分散的平行SGD(DPSGD)以改善分布式训练速度。在本文中,我们发现DPSGD不仅具有系统明智的运行时效,而且在大批量设置中对SSGD的显着收敛性有益。基于对DPSGD学习动态的详细分析,我们发现DPSGD引入了额外的横向依赖性噪声,可自动调整有效的学习率以提高收敛。此外,我们理论上表明这种噪音平滑了损失景观,因此允许更大的学习率。我们在18个最先进的DL模型/任务中进行广泛的研究,并证明DPSGD通常会收敛于SSGD在大批批量设置中大的学习速率的情况下融合。我们的发现一致地遍布两个不同的应用领域:计算机视觉(CIFAR10和Imagenet-1K)和自动语音识别(SWB300和SWB2000),以及两种不同类型的神经网络模型:卷积神经网络和长短期内存经常性神经网络。
translated by 谷歌翻译